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摘 要 : 针对 基于 蚁 群 聚 类 的 蛋白 质 复合 物 挖 气 算 法 中 ， 静 态 PPI 网 络 难以 真实 反映 细胞 的 动态 特性 ， 收 敛 速度 较 
慢 、 聚 类 准确 性 和 召回 率 不 高 等 问题 进行 了 研究 ， 提 出 一 种 基于 模糊 粒度 和 紧密 度 的 蚁 群 聚 类 的 动态 加 权 PPI 网 络 
复合 物 挖 所 方法 (joint fuzzy granular and closeness degree ant colony clustering-DPC, FGCDACC-DPC) 。 首 先 基 于 动 
态 PPI 网 络 的 拓扑 特性 和 生物 特性 设计 了 综合 性 权 值 度量 (comprehensive weight metric, CWM) ， 准 确 描述 了 蛋白 
质 之 间 的 相互 作用 ; 其 次 根据 复合 物 的 基本 特征 ， 构 建 一 组 稠密 且 高 度 共 表达 的 复合 核 ， 然 后 设计 模糊 粒度 和 紧密 
度 的 拾 起 放下 模型 对 其 余 节 点 聚 类 ， 降 低 了 计算 复杂 度 和 随机 性 ， 加 快 聚 类 速度 ; 最 后 基于 功能 信息 传递 和 时 序 功 
能 相关 的 思想 分 别 构建 了 局 部 和 全 局 权 值 更 新 策略 ， 实 现 不 同 代 蚁 群 和 不 同时 刻 网 络 之 间 的 功能 信息 传递 ， 提 高 聚 
类 准确 性 。 将 FGCDACC-DPC 算法 应 用 在 DIP 数据 上 进行 复合 物 挖 据 ， 实 验 结果 表明 该 算法 的 精度 和 召回 率 较 高 ， 
能 够 较 准 确 地 识别 蛋白 质 复 合 物 。 

Xu: 蚁 群 聚 类 ; 模糊 粒度 ; 动态 PPI 网 络 ; 功能 传递 ; 蛋白 质 复 合 物 
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Mining protein complexes based on ant colony clustering in dynamic weighted PPI networks 


q Hu Jian?, Zhu Haiwan’, Mao Yimin? 
CN (1. Dept. of Information Engineering, College of Applied Science, b. School of Information Engineering, Jiangxi University 
of Science & Technology, Ganzhou Jiangxi 343100, China) 


Abstract: Since static PPI networks are difficult to truly reflect the dynamic character of cells, the convergence speed is 
CN slow, cluster precision and recall is low in mining protein complex based on ant colony clustering, this paper proposes an ant 
- colony clustering algorithm based on fuzzy granular and closeness degree to mine protein complexes in dynamic weighted 
9 PPI network, named FGCDACC-DPC. First based on the topological and biological characteristics of the PPI network, a 
comprehensive weight metric (CWM) is designed to accurately describe the interaction between proteins. Second, this 


method constructs a series of dense and highly co-expressed complex core based on the basic characteristic of the 


mu complexes, then it employs the picking and dropping operations, which based on fuzzy granular and closeness degree, to 
cluster the nodes in PPI networks, in order to reduce effectively the computational complexity and randomness, speed up the 
clustering speed. Finally, this algorithm designs a local and global strategy founded on function transmission and timing 
functional relevance theory for weight's update, which achieve the function transmission between different generations of 
ant colonies and networks at different times to effectively improve clustering accuracy. FGCDACC-DPC algorithm is used 
to mine protein complexes on DIP data. Experimental results demonstrate that this algorithm has better performance on 
precision and recall, which is more reasonable to identify protein complexes. 
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0 ”引言 E AH EMEA NKRA, DRE T ups PPI 网 
B 络 挖掘 蛋白 质 复 合 物 的 研究 显得 尤为 重要 。 

蛋白 质 是 维持 一 切 生命 ; 股 是 ; 随 着 PPI 数据 和 和 蛋白 质 序列 数据 的 日 益 完善 ， 不 少 学 者 
与 蛋白 质 之 间 的 相互 作用 表现 出 来 的 。 一 个 生命 体内 逐渐 转向 基于 计算 的 复合 物 挖 掘 的 研究 ， 也 提出 了 许多 传统 
蛋白 质 复 合 物 之 间 的 相互 作用 构成 的 网 络 叫做 蛋白 质 的 挖掘 算法 ， 如 有 基于 密度 的 MCODE 算法 外 ， 基 于 划分 的 
网 络 ， 而 蛋白 质 复合 物 又 是 在 同一 空间 和 同一 时 间 下 共 RNSC 算法 由 和 基于 层次 的 Jerarca 算法 名 等 。 但 这 些 算法 都 
成 某 项 功能 的 蛋白 质 集合 。 由 于 蛋白 质 复合 物 挖掘 不 仅 能 存在 一 定 的 不 足 ， 有 的 算法 对 于 稀疏 网 络 效 果 不 佳 ， 有 的 算 
] 理 解 生命 活动 的 过 程 、 预 测 功能 未 知 的 蛋 和 白质， 还 法 检测 不 到 重生 的 复合 物 ， 有 的 算法 对 噪声 敏感 等 等 。 近 年 
疾病 诊断 和 药物 研制 提供 理论 基础 山 ， 因 此 蛋白质 复合 物 挖 。 ”来 ,研究 人 员 又 提出 一 些 新 的 复合 物 检测 方法 ， 如 基于 流 模 
昌 成 为 现 如 今 的 一 研究 热点 。 但 目前 大 多 识别 复合 物 的 聚 类 拟 的 检测 方法 加 、 基 于 核心 -附件 结构 的 检测 方法 四、 谱 聚 类 
算法 都 是 基于 静态 PPI 网 络 ， 由 于 这 类 算法 不 能 较真 实地 反 算法 名 以 及 群 智 能 算法 & 29 等。 而 功能 流 算法 的 聚 类 结果 受 给 
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定 参 数 的 影响 较 大 ， 基 于 核心 一 
较 高 ， 不 适用 于 大 规模 PPI 网 络 ， 谱 聚 类 算法 在 数据 降 维 后 
聚 类 方法 上 。 群 智能 优化 算法 具有 强大 的 全 局 寻 


叉 回 到 传统 村 


Jp dE, F: 基于 蚁 群 聚 类 的 动态 加 权 PPI 网 络 复合 物 挖 气 


附属 结构 的 聚 类 方法 复杂 度 


d Jt H. 


具有 较 强 的 鲁 棒 性 。 尤 其 是 蚁 群 算法 具有 和 其 


目前 蚁 群 算法 
掘 ， 成 为 该 领 
优化 的 PPI 网 
计 一 种 更 有 目 
果 。 刘 红 欣 [ 
ACC-FMD, 


该 方法 通过 拾 起 放下 模型 对 节点 聚 类 ， 


群 智 能 算法 相 比 独特 的 优势 , 蚁 群 算法 本 身 就 能 直接 聚 类 ， 
不 需要 借助 其 他 如 关 人 法, 


E 够 充分 发 挥 群 智能 算法 的 优势 。 
已 成 功 应 用 于 PPI 网 络 复合 物 和 功能 模块 挖 
或 一 个 新 的 研究 热点 。 刘 志 军 钙 提 出 一 种 蚁 群 
络 功能 模块 检测 算法 NACO-FMD， 该 方法 设 
的 性 的 函数 指导 蚁 群 寻 优 ， 得 到 较 好 的 聚 类 效 
0 提出 一 种 蚁 群 聚 类 的 功能 模块 检测 算法 


据 , 将 大 规 


有 效 降低 PPI 网 络 中 假 阳 
在 一 定 程度 上 解决 蚁 群 
速度 慢 的 问题 


的 工作 : 
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模 静 态 PPI 网 络 划分 为 多 个 小 规模 瞬 态 PPI 网 络 ， 


生物 特性 ， 


以 最 优 


EAR 


解 更 新 相似 度 


后 对 聚 类 结果 合并 过 滤 。 


函数 ， 通 过 不 断 达 代 使 察 类 结果 趋 于 最 优 ， 最 


这 些 蚁 群 聚 类 算法 在 应 用 于 大 规模 


PPI 网 络 上 都 


作 ， 导 致 收敛 速度 慢 ， 求 解 时 间 过 长 。 
种 基于 多 粒度 模型 的 蚁 群 优化 算法 


需要 进行 大 量 的 拾 起 放下 ， 以 及 合并 过 滤 等 操 


更 新 策略 ， 


吕 嘉 伟 等 人 0 提出 


通过 在 不 同 代 蚁 群 和 相 邻 时 


性 
聚 类 算法 应 用 于 大 规模 PPI 网 络 收敛 
。 基 于 动态 网 络 ， 本 文 主要 做 了 以 下 几 个 方面 
) 结合 点 边 聚 集 系数 、 GO 功能 相似 性 
IDE ROBAR 的 相似 性 ， 提 出 一 种 综合 性 权 值 度 
量 方法 , 对 网 络 加 权 并 添加 新 的 相互 作用 , 有 效 降低 假 阴性 ， 
进而 提高 召回 率 ;b ) 
聚 类 的 复合 物 检 测 方法 
构建 一 组 功能 相似 、 
机 选择 一 个 作为 初始 位 置 ,其 次 采 / 


基于 动态 加 权 网 络 ， 
FGCDACC-DPC, 首 先 根据 复合 物 的 


对 复合 物 检 测 结果 的 影响 ， 并 上 是 


] 
皮尔 


和 基于 


提出 一 种 基于 蚁 群 


小 而 稠密 的 复合 核 ， 蚁 群 随 
模糊 粒度 相似 性 函数 对 


节点 进行 聚 类 ， 聚 类 完成 之 后 根据 紧密 度 舍弃 与 复合 物 
连接 不 紧密 的 节点 ， 优 化 聚 类 过 程 ;c) 考虑 到 蚁 群 之 间 的 信 
息 传 递 和 PPI 网 络 的 时 序 相 关 性 ， 


提出 一 种 局 部 和 全 局 权 值 


网 络 之 间 不 断 传递 


过 


最 优 解 信息 使 聚 类 结果 趋 于 最 优 ， 并 且 能 够 有 效 减 少 访问 却 


+ 


MGRACO-FMD, 试图 提 


升 收敛 速度 ， 但 聚 类 结果 准确 性 不 高 。Lei SANIJE 


基于 连接 强度 


销 有 所 降低 ， 但 查 全 率 也 较 低 。 
同时 ， 正 确 率 和 查 全 率 都 有 所 降低 。 


出 一 种 
法 ， 该 算法 时 间 开 
这 些 算法 在 提升 时 间 性 能 的 
以 上 算法 都 将 蛋白 质 相 


的 PPI 网 络 蚁 群 优 


互 作用 网 络 视 为 静止 不 变 的 ， 
映 细胞 内 部 的 动态 变化 中 ， 进 而 影 
l 


确 性 


四 的 研究 。 


， 因 此 基于 动态 PPI 网 络 挖掘 蛋 
目前 许多 学 者 展开 
Tang 等 人 0 利用 基因 表达 数据 和 静态 PPI 网 络 ， 
构建 一 个 规定 统一 阔 值 的 时 序 
protein interaction networks，TC-PIN) ， 并 且 将 其 成 功 应 用 
于 蛋白 质 功能 模块 挖掘 。 由 于 各 个 蛋白 的 基因 表达 水 平 不 一 


但 是 静态 PPI 网 络 不 能 真实 反 
向 蛋白 质 复合 物 挖掘 的 准 


不 被 拾 起 的 次 数 ， 进 而 加 快 聚 类 速 


聚 类 准确 性 。 实 


速度 、 提 高 


验 结果 表明 ， 该 算法 的 聚 类 效果 较 好 。 
1 ”动态 加 权 PPI 网 络 构建 


1.1 动态 


PPI 网 络 构建 


前 动态 网 络 已 引起 人 们 


是 一 个 根 提 


质 复合 物 更 为 合理 。 
d ER EL EEUU 


了 从 动态 PPI 网 络 中 ] 


蛋白 质 相 互 作用 


(time course 


8S, WES 
REOS UR 


息 和 结构 域 信 
方法 D-PIN， 


HESE PPI 网 络 不 准 
Hu 等 人 05 取 消 统一 阔 值 ， 将 各 个 和 蛋白质 的 平均 
表达 水 平 作为 评 产 
息 构建 动态 加 权 网 络 ， 并 提出 和 蛋 
实验 表明 该 方法 具有 较 高 的 准确 率 ， 但 召回 率 
相对 较 低 。Su 等 人 09 提 出 一 种 基于 动态 加 权 PPI 网 络 复合 物 
ZIEHE GECluster， 该 方法 首先 利 
加 权 ， 其 次 根据 种 子 节点 扩充 的 策略 挖掘 蛋白 质 复合 物 。 该 


确 ， 进 而 影响 


是 否 为 活性 的 标准 ， 结 合 复合 物 信 


质 功 能 预测 


VR 


H GO-Slim 对 动态 网 络 


方法 只 采 ES 


未 融合 多 种 数据 ， 因 此 不 能 很 好 地 反 
用 。 Yi 等 人 (7 利用 边 聚 集 系 数 和 持续 
是 出 一 种 基于 核 附属 的 蛋 


质 加 权 ， 
DCA， 该 算法 


复合 物 识 昂 


据 ， 如 何 合理 


入 研究 。 


针对 以 上 


够 较 好 地 描述 蛋白 质 之 间 的 相似 性 。 同年, Zhao $ ANSA H 
复合 物 的 时 序 功能 保持 特征 ， 结 合 蚁 群 聚 类 ， 提 
I 算法 。 
掘 方法 ， 而 不 仅仅 只 在 聚 类 方法 上 
精确 度 较 高 ， 但 是 
群 搜索 方式 有 关 。 昌 然 妇 
得 了 一 定 的 成 效 ， 但 如 何 有 效 利用 基因 表达 谱 过 滤 假 阳性 数 
整合 PPI 数据 和 多 元 生物 信息 ， 
加 权 方 式 来 减少 构建 的 网 
此 外 蚁 群 算法 应 用 于 大 规模 PPI 网 络 聚 类 问题 中 ， 
需 进行 大 量 拾 起 放下 和 过 滤 操 作 ， 
于 算法 随机 性 较 大 ， 
题 仍 吸 待 解决 。 


因 本 体 信息 度量 蛋白 质 之 间 的 功能 相似 性 ， 
决 蛋 白质 之 间 的 相互 作 
共 表 达 长 度 对 各 个 和 蛋白 
质 复合 物 检测 方法 
复合 物 演化 的 时 序 特征 ， 能 


的 加 权 方 式 融 入 了 


出 一 种 新 的 
的 视角 去 分 析 复 合 物 的 挖 
进行 创新 。 该 方法 的 聚 类 
算法 的 召回 率 一 般 ， 可 能 与 权 值 度量 及 蚁 
质 复 合 物 挖掘 取 


该 算法 从 一 种 新 


提出 有 效 的 
络 与 真实 网 络 之 间 的 差距 ， 仍 需 深 


导致 收敛 速度 慢 ， 同 时 
导致 准确 率 和 召回 率 普 遍 不 高 ， 这 些 问 


问题 ， 本 文 首先 利用 静态 网 络 和 基因 表达 数 


定义 1 


刻 的 瞬 态 网 络 ， 
表达 的 蛋白 质 集合 ，5 - le 


作用 集合 。 


动态 PPI 网 络 是 基于 基因 表达 谱 数据 构建 的 。 
数据 对 揭示 蛋白 质 和 PPI 网 


个 蛋白 质 的 36 个 时 刻 


1 表示 时 


基因 表达 谱 数 据 对 静态 网 络 不 断 调整 优化 的 过 
程 ， 动 态 网 络 的 定义 如 
动态 网 络 1DG={G,G.…G.…G,} , G; -(V.E) 是 i 时 
ZA, V, =a Vas 


下 所 示 。 


泛 的 关注 ， 动 态 网 络 的 构建 


Va} 表示 i 时 刻下 


,ee 表示 时 刻下 蛋白 质 相 互 


基因 表达 


的 基因 表达 水 平 (3 个 周 


络 的 动态 属性 极其 


要 ， 包 含 每 
期 ， 每 个 周期 


12 个 时 刻 ) 


。 本 文 首先 采 


合并 为 12 个 时 刻 , 分 别 取 三 


时 刻 的 基 医 


文献 [15] 中 的 公式 , 将 36 个 时 刻 


个 周期 对 应 时 刻 的 平均 值 作为 该 


表达 值 ， 计 算 公式 如 下 : 


T, (D) - T, (£12) - T, (i 24) 


T,G)- 


EL FH: 


EAM u 的 平均 基因 表达 值 。 


不 适合 采用 统一 

了 
平 ， 则 认为 该 重 
刻下 的 平均 基因 表达 值 如 下 


基于 这 12 个 时 刻 的 基因 表达 值 ， 通 过 蛋白 质 的 
性 来 构建 动态 PPI 网 络 。 由 


于 不 同 蛋 白质 者 


(1) 


表达 
因 表 达 水 平 不 同 ， 


3 


ja ét 


其 活性 Po。 


比 在 本 文中 ， 如 果 某 


j 
的 基 医 


表达 水 平 大 于 自身 的 平均 表达 水 


质 在 该 时 多 


质 在 12 个 时 


TG) 表示 蛋白 质 4 在 i 


网 络 


本 文 整合 基因 表达 数 ] 
而 构建 动态 PPI 


m, XIPPA PPI 网 络 不 断 调整 ， 进 
网 络 。 基 本 ， 
上 存在 相互 作用 ， 且 在 同一 时 刻 表 达 ， 那 么 本 文 认 为 蛋 


思想 如 下 如果 蛋 白质 wr 在 PPI 


白质 “7 在 
M sv zr quj 


存在 假 阴 忆 


中 不 存在 相互 作用 ， 


该 时 刻下 的 瞬 z 
的 边 是 


态 网 络 确实 存在 边 ， 
虚假 的 而 剔除 ; 


否则 认为 蛋 
TIR REI. "v 在 PPI 网 络 


但 在 


关系 数 的 


司 一 时 刻 表达 ， 考 虑 到 PPI 网 络 中 
E, 本 文 根 据 1.2.4 节 中 GO 功能 相似 性 
取 值 大 小 ， 决 定 是 否 在 它们 之 间 新 增 一 条 边 


和 皮尔 逊 相 
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1.2 动态 PPI 网 络 加 权 


PPI 网 络 的 拓扑 特性 ， 


H d, 


针对 PPI 网 络 中 存在 大 量 假 阴性 数据 的 问题 ， 本 文 基于 
结合 GO 功能 相似 性 和 共 表 达 的 皮尔 


进 相关 系数 ， 对 动态 网 络 加 权 ， 并 且 添 加 新 的 相互 作用 ， 能 


在 一 定 程度 上 增加 和 蛋白质 相 互 作 / 


的 可 信和 度 。 


1.2.1 PPI 网 络 拓扑 特性 


边 聚集 系数 2 是 网 络 拓扑 特性 中 最 重要 的 一 种 ， 不 仅 考 
虑 了 边 在 网 络 中 的 重要 程度 ， 还 能 评估 节点 “7 邻居 之 间 的 


紧密 程度 。 边 聚集 系数 的 定义 如 下 : 


E „(u,v)= 


Aem ni ev 的 度 。 


点 边 聚 集 系 数 公式 如 下 : 


tan, v 


min(d, — L d, -1) 9) 


Hop. tan 表示 节点 wv 共同 构成 三 角形 的 个 数 。 dud, 分 别 


于 边 聚 集 系数 只 考虑 边 的 重要 性 ， 没 有 考虑 节点 的 重 
要 性 ， 把 两 个 节点 的 权 值 都 看 做 是 1。 因 此 ， 引 入 能 够 反映 
节点 聚集 程度 的 点 聚集 系数 对 边 聚 集 系数 加 以 改进 ， 提 
出 一 种 融合 节点 和 边 的 双重 拓扑 特性 的 点 边 聚 集 系 数 CE o 


tan, ,xC, x C, 


CE.(u,Y)=—————— (4) 


Hop. tan, 和 di,d, 如 式 G) 所 示 ， 


min(d,,d,) 
C, C, 表示 藻 点 wv 的 点 


聚集 系数 ， 计 算 公式 如 下 ; 


2N, 


G= d,(d, -1) (5) 
其 中 : 4, 表示 节点 "的 度 ，N, 表示 由 节点 "的 邻居 节点 之 间 
组 成 的 边 数目 。 
节点 4 所 有 关联 边 的 点 边 聚 集 系数 之 和 定义 如 下 : 
SoCE, (1) = CE, (u,v) 
Oo u P U,V (6) 


例如 : 如 图 1 所 示 ， 在 该 网 络 中 有 9 个 节点 ，19 条 相互 
作用 。 根据 式 (4) 计算 每 一 条 边 的 点 边 聚 集 系 数 ， 再 使 用 式 
C6) 计算 SocE. 值 来 评价 该 节点 的 重要 程度 。 计 算 过 程 如 下 。 


图 1 


ppi 网 络 示意 图 


An example of protein-protein interaction network 
Ts. EHR CO 计算 各 个 节点 的 点 聚集 系数 。 
C, = 0.4667,C, = 0. 


5.C, = 0.6,C, =0.6667,C, — 1, 


C, = 0.4,C, = 0.3333,C = 0.3333,C = 0.3333 
其 次 ， 使 用 式 (60 计算 每 个 节点 的 重要 程度 。 
SoCE.0)- > CE,(.v) - CE, (1.2) * CE, (1,3) +... 


veNeigh(u) 


CE, 0,4) + CE, (1,5) + CE, (1.6) + CE, (1,9) = 0.957246 


Hag 


的 重要 性 大 于 节点 2。 


È CE,Q)-0.607222 ， 可 知 节点 1 


Neigh(u) 


122. 蛋白质 GO 功能 相似 性 


等 : 基于 蚁 群 聚 类 的 动态 加 权 PPI 网 络 复合 物 挖 据 
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数据 ， 如 果 仅 以 网 络 拓扑 特性 衡量 两 个 蛋白 质 之 间 的 相互 作 
用 程度 ， 比 较 片 面 。 因 此 本 文 引 入 GO 功能 注释 信息 能 够 有 
效 降 低 假 阴 性 带 来 的 负面 影响 ， 提 高 网 络 的 可 靠 程 度 。 研 究 
表明 ， 两 个 蛋白 质 的 GO 注释 语句 的 交集 越 多 ， 功 能 就 越 相 
似 ， 则 出 现在 同一 复合 物 的 概率 越 大 。 受 文献 [23] 的 启发 ， 


本 文 将 两 个 蛋白 质 %* 的 GO 功能 相似 性 公式 定义 如 下 : 
ap- LARL 
FS(u,v) FIF] (7) 


其 中 : | 表示 蛋白质 wr 共同 的 GO REA, 1A f 
分 别 表示 蛋白质" 的 GO 术语 数目 。 
1.2.3 ”基因 共 表 达 的 皮尔 逊 相关 系数 
引入 皮尔 逊 相关 系数 来 度量 两 个 和 蛋白质 共 表达 的 强 弱 
程度 ， 能 够 在 一 定 程 度 上 抑制 GO 注释 信息 的 引入 带 来 的 假 
阳性 的 升 高 。 蛋 白质 wr 的 皮尔 逊 相关 系数 定义 如 下 : 


n| E (6i) - E, E (i) - E, 


olu) o(v) 


其 中 : 为 样本 数 ，i 为 在 基因 表达 数据 中 的 时 刻 数 ， 
Ey QD E Q.D. 分 别 表示 和 蛋白质 wr 在 i 时 刻下 的 表达 值 ， 


E(w),E,(v) 和 olwW,o0) 表示 在 所 有 时 刻下 的 平均 表达 值 和 标 


准 方 差 ， Pec(u,v) e[-b1] 。 
1.2.4 动态 网 络 加 权 
基于 动态 网 络 的 网 络 拓扑 特性 ， 整 合 GO 注释 信息 以 及 


F 
基因 表达 数据 对 网 络 进行 加 权 ， 该 加 权 策 略 体现 出 一 致 性 和 
互补 性 。 一 致 性 表现 在 能 够 共同 反映 蛋白 质 相互 作用 的 可 信 
度 ， 权 值 越 大 可 信 度 越 高 。 互 补 性 表现 在 ， 由 于 引入 的 GO 


注释 信息 中 可 能 包含 虚假 信息 ， 会 导致 假 阳 性 升 高 ， 进 而 导 
FS 值 有 所 升 高 ， 负 的 Pec 值 能 够 在 一 定 程度 上 降低 影响 ; 
于 PPI 数据 的 假 阴 性 和 GO 注释 信息 的 不 完整 性 ， 会 导致 边 
的 权 值 有 所 下 降 ， 正 的 Pec 值 能 够 在 一 定 程度 上 弥补 。 

对 于 动态 PPI 网 络 DG -(, E) FF E EVA AS S ER 1v Z2 [RI 
存在 相互 作用 ， 则 它们 之 间 的 相互 作用 权 值 计算 公式 如 下 : 


CWM (u,v) = CE (u,v) + FS (u,v) + Pcc(u, v) (9) 
FU, AJ Sv 2 RAH ENE BUEU F : 
CWM (u,v) = FS (u,v) + Pcc(u,v) (10) 


Hh: E ={(u,v)|u,v € V,, (u,v) € E,, CWM (u,v) > 0) 表示 通过 GO JJ 
EEIEIE EAA RAR RRA, RE Wvo, W 
把 蛋白 质 r 之 间 的 权 值 当做 0， 即 Wvs. 加权 后 的 动态 
网 络 定义 如 下 。 
定义 2 动态 加 权 网 络 DWG-(G.G..G.-G) , 
G;={V,B MB,CWM,} 是 ;时 刻 的 加 权 网 络 ， :表示 时 刻 数 ， 
V, = Vi VaV) K R i 时 刻下 表达 的 和 蛋白质 身 
互 ={eveosen} 表示 i 时 刻下 蛋白质 相 互 作 用 
CWM, = (cwm; ,cwm;,, ...,cwm,,) 是 权 值 的 集合 。 
1.3 动态 加 权 PPI 网 络 的 构建 过 程 
构建 动态 加 权 PPI 网 络 , 能 够 减少 假 阳 性 和 假 阴 性 数据 ， 
使 得 网 络 真实 可 靠 。 具 体 构建 过 程 如 下 所 示 : 
输入 : 静态 PPI 网 络 ， 基 因 表 达 谱 数据 ，GO 注释 信息 
输出 : 各 个 时 刻下 的 动态 加 权 网 络 DWG; 
a) 根 据 式 (1) 将 36 个 时 刻 合并 为 12 个 时 刻 ， 然 后 根据 
X OO 将 表达 值 低 于 平均 值 的 蛋白 质 过 滤 。 
b) 构 建 动 态 网 络 。 在 某 个 瞬 态 子 网 下 ,如果 蛋白质“…* 在 
静态 PPI 网 络 上 存在 相互 作用 且 共 表达 ， 则 在 该 时 刻 网 络 中 
添加 一 组 相互 作用 ; Un REOR ev 在 静态 网 络 上 不 存在 相 


Tt PS 


np nb 


D; 


于 生物 实验 的 局 限 性 ，PPI 网 络 中 往往 存在 大 量 噪声 


互 作用 但 共 表 达 ， 则 判断 式 C100 是否 大 于 0， 大 于 0 则 添 
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加 一 组 相互 作用 ， 和 否则 不 添加 。 

c) 分 别 根据 式 (9) 和 (10) 对 12 个 动态 子 网 进行 加 权 。 
2 算法 描述 
2.1 WRX A 

车 于 拾 起 放下 规则 的 蚁 群 聚 类 算法 鸣 是 由 Lumer 和 
Faiela 提出 的 ， 其 主要 思想 是 :将 数据 散落 在 一 个 二 维 平 画 
上 ， 随 机 生成 部 分 蚂蚁 ， 蚂 蚁 有 两 种 状态 : 负载 和 空 载 。 蚂 
蚁 在 负载 状态 时 ， 将 负载 数据 与 可 见 范围 内 的 数据 进行 相似 
度 对 比 ， 若 和 周围 数据 相似 ， 则 将 该 数据 放下 ， 否 则 继续 随 
机 移动 ， 蚂蚁 若 为 空 载 状 态 ， 判 断 该 位 置 的 数据 和 周围 数据 
的 相似 性 ， 若 相似 度 较 低 ， 则 拾 起 该 数据 并 随机 移动 。 拾 起 
概率 和 放下 概率 分 别 如 下 : 


5 


k 
P. -[-——2 p 
ES iu (11) 
uH 2xs(u,v) if s(u,v)< k; 
Pape =] 1 if s(u,v)> k, (12) 


ER: Pua Pro DADIR EERME, kka 为 常数 ， 
su, v) 相似 度 计 算 公 式 如 下 : 


1 d(u,v), . 
p 0 
s(u, v) | 2 [ z ] if su 


(13) 


S? 
ueNeigh(v) 


0 otherwise 


其 中 :5 为 蚂蚁 的 可 见 度 ，d(u,v) 为 节点 wr 之 间 的 距离 ，& 
为 相 异 度 因 子 。 
在 LF 算法 中 ， Pra Prop 分别 与 生成 的 随机 数 进行 比较 ， 
进而 执行 相应 的 操作 ， 这 种 随机 方式 会 使 得 一 个 数据 被 反复 
地 拾 起 放下 ， 导 致 聚 类 速度 变 慢 。 同 时 由 于 随机 性 ， 会 导致 
原本 相似 的 对 象 被 拾 起 ， 原 本 不 相似 的 对 象 反 而 被 放下 ， 进 
而 导致 聚 类 结果 的 准确 率 下 降 。 此 外 ， 由 于 相似 性 度量 和 蚁 
群 搜索 方式 不 适用 于 PPI 网 络 ， 进 而 导致 召回 率 不 高 ， 针 对 
以 上 问题 ， 本 文 提 出 FGCDACC-DPC 算法 。 
2.2 FGCDACC-DPC 算法 描述 
针对 蚁 群 算法 应 用 于 静态 PPI 网 络 聚 类 问题 中 ， 收 敛 速 
度 慢 ， 聚 类 结果 具有 较 大 随机 性 以 及 召回 率 和 准确 率 不 高 等 
问题 ， 为 提高 算法 效率 ， 提 出 一 种 基于 动态 加 权 PPI 网 络 复 
合 物 挖掘 算法 FGCDACC-DPC. 将 该 算法 应 用 于 构建 的 动态 
加 权 网 络 , 能 够 保证 识别 的 复合 物 真 实 可 靠 。 该 算法 基于 PPI 
网 络 拓扑 结构 直接 对 节点 聚 类 ， 主 要 分 为 三 个 部 分 : 复合 核 
的 构建 、 基 于 模糊 粒度 和 紧密 度 的 蚁 群 聚 类 以 及 基于 局 部 和 
全 局 的 权 值 更 新 。 
2.2.1 复合 核 的 构建 
针对 LF 蚁 群 算法 中 蚂蚁 位 置 的 随机 生成 会 降低 算法 效 
率 的 问题 , 为 加 快 算法 的 收敛 速度 , 在 FGCDACC-DPC 算法 
中 蚂蚁 的 初始 位 置 不 是 随机 在 二 维 平 面 上 生成 ， 而 是 随机 地 
从 一 个 复合 核 C 出 发 ， 这 样 选取 初始 位 置 能 够 在 一 定 程度 上 
提高 聚 类 效率 ， 又 可 避免 陷入 局 部 最 优 ， 且 复合 核 的 构建 为 
扩充 为 复合 物 葛 定 基础 。 复合 核 的 构建 思想 如 下 : a) 蛋 
白质 的 关键 性 是 复合 物 的 内 在 特性 ， 关 键 蛋 白质 往往 大 量 集 
中 在 某 些 复 合 物 中 后， 因此 本 文选 取 每 个 时 刻 子 网 中 所 有 关 
键 蛋 白质 作为 种 子 节点 集合 :b) 由 于 复合 物 是 一 个 功能 相似 


T 
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其 中 : m 表示 复合 核 C 的 边 数 ，n 表示 复合 核 C 的 节点 数 。 

复合 核 的 构建 过 程 如 下 : 

输入 : 7 时 刻下 的 瞬 态 加 权 PPI 网 络 DWG, 和 关键 蛋白 
H, HEHREN, EBE d ,连续 共 表达 次 数 m 

输出 : 工时 刻下 的 复合 核 G, CC) 

a) 根 据 式 “6) 计算 每 个 关键 蛋白 质 节点 的 SoCE, 值 ， 按 
降序 排列 放 入 有 序 队列 2 o 

b) 从 2 中 取 5oCE.. 值 最 大 的 节点 初始 化 一 个 复合 核 C， 
将 满足 7 并且 连续 共 表 达 次 数 大 于 等 于 m 的 直接 邻居 节点 加 
入 复合 核 CC 。 
©) 计 算 复 合 核 C 是 否 满足 密度 阔 值 4 ， 满 足 转 到 步骤 4; 
不 满足 ， 递 归 删 除 SoCE,. 值 小 的 节点 直至 满足 条 件 。 

d) 得 到 复合 核 C， 存 入 结果 队列 8, 中， 从 有 序 队列 4 中 
删除 复合 核 c 中 全 部 的 节点 。 

e) 重 复 步 又 b)~d)， 直 到 有 序 队 列 2 为 空 。 
2.2.2 基于 模糊 粒度 和 紧密 度 的 蚁 群 聚 类 

为 提高 算法 性 能 ， 本 文采 用 模糊 粒度 和 紧密 度 对 拾 起 放 
下 规则 进行 改进 ， 而 不 是 基于 拾 起 放下 概率 与 随机 数 的 结果 
进行 聚 类 ， 有 效 降低 算法 的 随机 性 。 其 中 以 模糊 粒度 作为 拾 
起 规则 ， 一 方面 减少 参数 的 设置 ， 降 低 计 算 复杂 度 ， 提 高 聚 
类 速度 ， 男 一 方面 相似 度 函 数 能 更 准确 地 反映 蛋白 质 与 复合 
核 之 间 的 紧密 程度 ， 提 高 聚 类 准确 性 。 以 紧密 度 作为 放下 规 
则 ， 能 够 对 形成 的 初始 聚 类 结果 进行 修正 ， 提 高 聚 类 效果 。 
定义 3 模糊 粒度 29。 设 给 定论 域 R ，s 是 R SÜD 
EO, 1] 的 任 一 映射 (可 表示 为 e R 90000, WRA r9 el) ， 
则 7 为 论 域 R 的 一 个 模糊 子 集 A ，a(7) 为 对 此 模糊 子 集 A 
的 隶 m. 
要 衡量 复合 核 内 节点 v 与 其 邻 域 节点 4 是否 相似 ， 首 先 
计算 复合 核 c 与 邻 域 蛋 白质 4 之 间 的 CWM 值 之 和 , 再 取 其 均 
值 作为 论 域 K ， 相 似 度 函数 可 表示 为 KR 上 的 一 个 模糊 子 集 
A ， 因 此 基于 模糊 粒度 的 相似 性 函数 可 表示 为 : 


— 


Ix] 


m a l CWM (u,v) à 


gy SE x ^ CWM (u, v) | C | veC ueNeigh(C) (15) 


| veC.ueNeigh( 


0 else 


其 中 : C 为 复合 核 内 的 节点 数 ，% 为 相 异 度 因子 ，“ 取 值 
应 该 尽 可 能 合理 ，a 太 大 ， 会 生成 许多 稀 玻 的 小 类 ， 将 直接 
导致 原本 能 聚 到 同一 个 艇 的 节点 不 能 聚集 到 同一 个 簇 , 反之， 
会 导致 原本 属于 两 个 艇 的 节点 被 划分 到 同一 个 艇 中 。 

采用 e. 作为 衡量 是 否 拾 起 的 标准 , 如 果 ea 大 于 初始 粒度 
P ， 则 说 明 该 节点 4 与 复合 核 的 相似 度 较 大 ， 则 对 其 进行 拾 
起 操作 ， 反 之 不 对 其 进行 操作 。 初 始 粒 度 P 对 聚 类 结果 有 直 
接 的 影响 ， 初 始 粒 度 P 越 大 ， 能 够 满足 闵 值 条 件 的 相互 作用 
就 越 少 ， 生 成 的 模块 数量 就 多 ， 反之 ，P 越 小 ， 聚 类 数目 就 
gh. 粒度 P 的 取 值 在 实验 3.3 部 分 做 具体 阐述 。 


高 度 共 表达 的 稠密 子 图 ， 因 此 需要 判断 构造 的 复合 核 是 否 
满足 相互 作用 闵 值 、 密 度 闵 值 和 连续 共 表 达 次 数 的 条 件 。 本 
文 基于 以 上 两 个 特征 来 构建 复合 核 ， 其 中 复合 核 的 密度 计算 
公式 如 下 : 


2m 
n(n—1) 


den(C) = (14) 


定义 4 紧密 度 7 是 保证 形成 高 内 聚 复合 物 的 条 件 之 

EAM u 到 一 个 复合 物 PC 的 紧密 度 CDu, PO) 定义 如 下 : 
2 d" (u,v) 

CD(u, PC) = Y auv) (16) 

其 中 : duv) 表示 和 蛋白质“ 与 复合 物 PC 内 其 他 蛋白质， XE 


RAWE; duv) 表示 和 蛋白质 4 与 复合 物 PC 外 其 他 蛋白 
质 % 连 接 边 的 权 值 。 

FGCDACC-DPC 算法 采用 式 (15) (16) 和 (9) RË 
X (OD ~ (13) 作为 拾 起 放下 规则 ， 并 调整 拾 起 放下 规则 。 
大 致 思想 为 : 每 只 蚂蚁 的 职责 是 遍历 复合 核 邻 域内 所 有 未 访 
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录用 定稿 
问 的 节点 ， 并 且 能 装载 数据 3。 蚂蚁 在 PPI 网 络 上 移动 ， 通 
过 基于 模糊 粒度 的 拾 起 规则 不 断 装 载 数据 形成 自身 的 聚 类 结 


R ( 解 ) ， 每 只 蚂蚁 对 应 一 个 可 能 解 。 在 形成 聚 类 的 过 程 中 ， 
每 个 复合 核 初始 化 一 个 徐 ， 蚂 蚁 随机 选择 一 个 复合 核 ， 搜 索 
复合 核 邻 域内 的 节点 ， 当 蚂蚁 遍历 完 当 前 复合 核 邻 域内 所 有 
满足 条 件 的 节点 或 者 达到 最 大 装载 量 时 ， 蚂 蚁 随机 选择 下 一 
个 复合 核 开始 下 一 轮 搜索 。 重 复 上 述 过 程 ， 直 到 所 有 复合 核 
均 被 蚂蚁 遍历 完 ， 得 到 初始 聚 类 结果 。 根 据 紧密 度 对 初始 聚 
类 结果 进行 修正 ， 舍 弃 一 些 外 部 连接 紧密 ， 内 部 连接 松散 的 
节点 。 蚁 群 聚 类 过 程 如 下 所 示 。 

输入 : 了 时 刻下 的 瞬 态 加 权 PPI 网 络 DWG, 和 复合 核 
(6.C,.C,) ， 蚂 蚁 个 数 Num ， 最 大 装载 量 上 ， 初 始 粒度 P 

输出 : 7 时 刻下 的 复合 物 集合 cs 

a) 在 结果 队列 2 中 随机 选择 一 个 复合 核 C 作为 蚂蚁 的 初 
始 位 置 。 
b) 根 据 式 C150 计算 蚂蚁 邻 域 范围 内 (直接 邻居 ) 节点 4 
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越 多 , VL BH ZONE ER ELIO Ie 功能 越 相 似 ,那么 在 7 时 刻 网 络 中 ， 
如 果 蛋 白质" 仍 具有 活性 ,那么 该 对 蛋白 在 7 网 络 出 现在 同 
一 复合 物 中 的 概率 要 比 在 7 时刻 不 属于 同一 复合 物 的 蛋 
对 的 概率 更 大 :bp) 假设 蛋白 质 %!' 在 Ga M G 网络 上 都 具有 连 
续 活 性 并 且 有 相互 作用 ， 说 明 该 条 相互 作用 是 可 靠 的 和 稳定 
的 , 赋予 该 相互 作用 一 个 高 权 值 ,假设 蛋白 质 “…* 只 在 G 网 
络 上 都 具有 活性 和 相互 作用 , 说 明 该 条 相互 作用 是 比较 可 靠 ， 
赋予 该 相互 作用 一 个 相对 较 低 的 权重 8 。 基 于 以 上 两 点 ， 设 
计 了 全 局 权 值 更 新 策略 ， 该 策略 基于 PPI 网 络 的 时 序 性 ， 将 
上 一 时 刻 网 络 的 聚 类 结果 通过 CWM 的 正 反馈 传递 给 下 一 时 
刻 的 网 络 ， 有 效 增加 属于 同一 簇 的 两 个 蛋白 质 之 间 的 相互 作 
用 程度 ， 加 快 收敛 速度 。 全 局 更 新 公式 如 下 所 示 : 


0-0)" CWM'(uv), Gi 20 
CWM'(u,v) - 40 B)" CWM'(u,v), G} =1 


0, otherelse 


一 


us 


[d 


or G,-l 
and G,-l (20) 


的 es。， 将 满足 条 件 的 邻居 节点 拾 起 ， 并 前 进 到 该 节点 ， 更 新 
复合 核 和 蚂蚁 邻 域 范围 ; 若 无 满 足 条 件 的 节点 , 转 到 步骤 d), 
否则 转 到 步骤 c). 

cc) 判断 蚂蚁 装载 量 〈 标 准 复 合 物 的 最 大 规模 ) 是 否 达到 
最 大 ， 若 未 达到 最 大 装载 量 ， 重 复 步 骤 b)， 继 续 对 蚂蚁 的 新 
邻 域内 节点 进行 聚 类 ;否则 转 到 步骤 d). 

d) 得 到 复合 核 c 对 应 的 初始 结果 ， 从 结果 队列 2 中 删除 
复合 核 C 。 判 断 结果 队列 O. 是 否 为 室 ， 若 不 为 空 ， 随 机 选择 
一 个 复合 核 作 为 蚂蚁 的 初始 位 置 ， 返 回 步骤 p). 否则 转 到 步 
IR e). 

e) 根 据 式 〈16) 计算 节点 与 复合 物 PC 的 紧密 度 ， 将 紧 
密度 小 于 1 的 节点 舍 去 ， 得 到 复合 物 PC 。 输 出 复合 物 集合 
CS 。 


聚 类 完成 之 后 选取 模块 性 m 2 作为 评价 解 的 质量 好 坏 
的 指标 。 M 值 越 大 ， 说 明 解 的 质量 越 好 ， M4 函数 的 定义 如 
下 : 


S Erc _ dpc 2 
M= EE GE (17) 


其 中 : Cs 为 预测 到 的 复合 物 的 个 数 ，erc 是 复合 物 PC 内 部 节 
AERA M, de 是 复合 物 PC 内 部 节点 度 之 和 , ElK 
示 在 整个 PPI 网络 所 有 连接 数 之 和 。 
2.2.3 局 部 和 全 局 权 值 更 新 策略 

针对 蚁 群 算法 中 聚 类 准确 性 不 高 的 问题 ， 提 出 一 种 局 部 
更 新 策略 。 该 方法 采用 一 种 功能 信息 传递 机 制 ， 通 过 不 同 代 
蚁 群 之 间 的 信息 传递 ， 将 上 一 次 迭代 的 最 优 解 信息 通过 权 值 
进行 传递 ， 使 相似 的 数据 在 下 一 次 迭代 中 被 分 配 到 同一 复 的 
概率 增 大 ， 同 时 减 小 不 相似 数据 被 分 配 到 同一 簇 的 概率 。 通 


4 


过 不 断 迭 代 ， 使 得 聚 类 结果 趋 于 最 优 。 局 部 权 值 更 新 公式 如 
下 所 示 : 

CWM (u,v) = (13- PC, )CWM (u,v) (18) 
其 中 :PC 表示 在 上 次 迭代 的 最 优 解 中 ,蛋白质 …* 共享 复合 


物 的 概率 ， 以 此 作为 一 种 增强 系数 ， 公 式 如 下 所 示 : 
_ cnc 
“ICICI (13) 
Kr. CC, 分 别 为 蛋白 质 wv 所 属 复合 物 的 集合 ， CoE 
示 同时 包含 蛋白 质 wy 的 复合 物 集合 。 
研究 表明 ， 连 续 时 刻 的 复合 物 之 间 具 有 一 定 的 相关 性 


p91， 本 文 结合 PPI 时 序 网 络 的 功能 相关 性 和 蚁 群 算法 的 信息 
传递 机 制 ， 提 出 一 种 全 局 权 值 更 新 策略 。 大 致 思想 为 : a) 假 
BEE Ta 时 刻 网 络 中 活性 蛋白 质 w* 出 现在 同一 复合 物 的 次 数 


Ep: nA m, RIE Ta 和 工时 刻 瞬 时 网 络 的 最 优 解 中 ， 蛋 
白质 “7 出 现在 同一 复合 物 中 的 次 数 ，0<a<B<1，6 和 为 
常数 。 在 实验 中 ， 分 别 设置 0 和 6 为 0.1 和 0.2。 
23 ”算法 步骤 
FGCDACC-DPC 算法 步骤 如 下 所 示 ; 
输入 : 各 个 时 刻下 的 动态 加 权 PPI 网 络 DWG, 
输出 : 各 个 时 刻下 的 复合 物 
a) 初 始 化 参数 : 相互 作用 阔 值 7 ,密度 阔 值 4， 连续 共 表达 次 数 m ， 
相 异 度 c ， 初 始 粒度 D ， 最 大 和 迭代 次 数 WN ， 蚂 蚁 个 数 Num ， 最 大 装载 
LI 0, P 
b) 挖 掘 各 个 时 刻下 的 复合 物 
for i=1 to 12 do 
调用 复合 核 构建 方法 
for iter=l to N 


for k=1 to Num 

调用 蚁 群 聚 类 方法 

end for 

根据 式 (17) 计算 蚁 群 的 最 优 解 

根据 最 优 解 和 式 〈18) 对 相互 作用 权 值 进行 局 部 更 新 
end for 
根据 第 了 时 刻 的 最 优 解 和 式 (200 ， 全 局 更 新 第 Ta 时 刻 的 相互 
作用 权 值 

end for 

输出 不 同时 刻 的 蛋白 质 复合 物 
2.4 算法 的 时 间 复 杂 度 

FGCDACC-DPC 算法 的 时 间 复 杂 度 主要 由 三 部 分 构成 。 
初始 化 参数 的 时 间 复 杂 度 为 0D 。 构 建 复 合 核 的 时 间 复 杂 度 
JI Omm n dD 。 蚁 群 聚 类 的 时 间 复 杂 度 ， 在 最 好 情况 下 ， 
除 复合 核 的 剩余 节点 mw|n| 在 每 一 次 聚 类 中 至 少 被 访问 一 
次 ， 聚 类 的 时 间 复 杂 度 O(N*Num* m,|n|D ; ERAEN P, fl 
余 节 点 杆 才 | 在 每 一 次 聚 类 中 都 被 访问 却 又 没有 拾 起 ， 此 时 
每 个 节点 被 访问 了 mln| 次 ， 聚 类 的 时 间 复 杂 度 
O(N*Num*mm, |n PD o HP m |n| J DWG 上 复合 核 的 数量 ， 
dus 为 节点 的 最 大 度 ，1 为 动态 子 网 的 个 数 ， N 为 迭代 次 数 ， 
Num 为 蚂蚁 数量 。 于 n<n(n 为 总 节点 数 )， 并且 N,Num,l 
和 mm 均 为 常量 ， 因 此 FGCDACC-DPC 算法 性 能 较 好 。 
2.5 算法 后 处 理 
重 芭 得 分 SI 通常 用 来 评价 检测 到 的 复合 物 ,与 标准 库 
复合 物 5, 的 匹配 度 ， 定 义 如 下 : 
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E 05(E,5,)>t ， 则 表示 预测 复合 物 与 标准 复合 物 匹 配 ， 
1 一 般 取 值 为 0.2009, os 值 越 大 说 明 匹 配 率 越 高 。 采 用 
FGCDACC-DPC 算法 聚 类 得 到 结果 后 ， 根 据 式 (21) 计算 预 
测 得 到 的 复合 物 与 标准 复合 物 的 重 炙 得 分 ， 当 重 闭 率 低 于 
0.2， 则 将 该 复合 物 删 除 ， 重 复 该 过 程 ， 得 到 最 终 的 复合 物 。 


3 ”实验 结果 与 分 析 


3.1 数据 来 源 
为 验证 算法 的 有 效 性 ， 本 文选 用 基因 表达 数据 ，GO ZI 
能 注释 数据 等 相关 数据 集 都 相对 比较 完善 的 酵母 PPI 网 络 数 
据 。 实 验 部 分 所 使 用 到 的 几 种 数据 如 下 所 示 : 
a) RE PPI 网 络 来 自 DIP 数据 库 B01 (2010 年 10 月 10 H 
的 版 本 )， 经 去 除 重 操作 后 , 该 数据 库 包 含 5093 个 蛋白 质 和 
24734 组 相互 作用 。 
b) GO 功能 注释 信息 下 载 自 基 因 本 体 库 B21。 
c) 基因 表达 谱 数据 选取 编号 为 GSE3431 的 数据 B31， 包 
括 36 个 时 刻下 的 6777 个 基因 的 表达 值 。 经 过 预 处 理 后 ， 在 
酵母 PPI 网 络 中 的 只 有 4981 个 基因 。 本 文 将 没有 基因 表达 数 
据 的 蛋白 质 的 基因 值 设置 为 0。 根 据 基因 表达 谱 数据 对 PPI 
网 络 预 处 理 后 ,得 到 12 个 时 刻 瞬 态 子 网 的 活性 和 蛋白 质数 目 及 
其 相互 作用 数目 ， 有 具体 数据 如 表 1 所 示 。 
采用 CYC2008 B41 作为 标准 复合 物 数 据 集 。 其 中 包含 408 
个 标准 复合 物 ， 簇 的 最 大 规模 为 81， 考 虑 可 扩展 性 ， 因 此 本 
文 将 最 大 装载 量 Lu 设置 为 90。 
d) 关键 重 白质 数据 通过 整合 MIPSPSI, SGDB9, DEGI, 
SGDPG814 个 数据 库 中 的 数据 得 到 ， 其 中 包含 1285 个 关键 蛋 
白质 ， 只 有 1167 个 关键 蛋白 在 酵母 PPI 网 络 中 。 
表 1 BR ppi 网 络 的 活性 蛋白 质 及 其 相互 作用 数 


Table 1 | Number of active proteins and interactions in each dynamic 


PPI networks 


人 对 间 点 1 2 3 4 5 6 

活性 蛋白 1638 1742 1659 1444 1368 1211 
质数 目 
相互 作用 — 7574 8497 8262 6697 6250 5264 
数 


人 对 间 点 了 8 9 10 11 12 
活性 蛋白 1221 1444 1756 1285 1410 1249 
质数 目 


相互 作用 5438 7109 8698 5999 6598 5306 
p 


3.2 评价 指标 
实验 采用 正确 率 ， 查 全 率 和 F -measure 来 对 算法 聚 类 效 
果 进 行 评估 B0， 其 计算 公式 如 下 : 


IFAs] 
[F| 
[Fas] 
ISI 
其 中 : F 表示 预测 的 蛋白 质 复合 物 ，5 表示 标准 库 中 的 蛋 
质 复合 物 。 

综合 考虑 正确 率 和 查 全 率 对 聚 类 结果 的 影响 ， 采 用 


F -measure 综合 度量 模块 的 聚 类 结果 。 


precision(F, S) = 


recall(F,S) = (23) 


2x precision x recall 
F —measure — 


(24) 


precision + recall 
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d 33 $£ 
08(&,, S.) - LEO. Q1) 数 分 析 e 
|F, |x|S, | FGCDACC-DPC 算法 中 ， 初 始 粒 度 P 需要 


户 自 定义 ， 


且 直 接 影响 聚 类 数目 。 因 此 为 使 得 初始 粒度 P 的 取 值 较为 


并 
合理 ， 本 文 在 保证 其 他 参数 相同 的 情况 下 ， 独 立 运行 20 次 ， 


取 20 次 结果 的 平均 值 进行 分 析 。 实 验 中 使 用 的 参数 设置 如 


PF: m5035,m-25,0 2035, N=20,d=0.7, Num=15 


o 


2 展示 了 粒度 P 在 不 同 取 值 下 精度 、 召 回 率 以 及 
-measure 值 相 应 的 变化 情况 。 从 图 2 PAES, ARR 
精度 随 着 粒度 P 值 的 增 大 而 增 大 ， 由 于 P 值 的 增 大 ， 满 足 条 


Hu 


个 的 相互 作用 变 少 ， 能 够 避免 和 某 一 复合 物 相 似 度 较 低 的 节 
点 的 加 入 ， 从 而 检索 到 更 少 的 无 用 复合 物 ， 所 以 整体 的 正确 


^ 


0 增加 到 0.55, F-—measure 值 一 直 处 于 上 升 趋势 ， 


Y 


xa 
较为 合理 。 
BI 
0.60 " m 
* 
. . . 
LJ . 
0.544 L a 
A^ 
" Ah. a MÀ. 
. 
a 
j » E »» 
0.48 LI 
. LJ 
. 
. *- recall 
9 . *— precision 
4— F-measure 
0.0 0.2 04 0.6 0.8 10 


图 2 粒度 P 值 与 评价 指标 的 关系 


点 
率 呈 上 升 趋势 ; 与 此 同时 , 召回 率 会 随 着 P 值 的 增加 而 下 降 ， 
姑 为 要 求 更 严格 ， 能 够 匹配 的 功能 模块 的 数目 变 少 。P 值 从 


到 达 0.55 


之 后 ，F -measure 值 逐渐 趋 于 平稳 。 因 此 本 文 将 P 设置 为 0.55 


Fig.2 Performance of FGCDACC-DPC with different granularity p 


3.4 综合 性 权 值 度量 有 效 性 分 析 
为 验证 综合 性 权 值 度量 CWM 的 有 效 性 ， 


FGCDACC-DPC 算法 , 分 别 以 不 同 的 加 权 方 式 对 动态 PPI 网 


实验 使 用 


络 加 权 ， 比 较 在 不 同 重 闭 率 闵 值 下 ， 被 识别 的 己 知 复合 物 的 
比例 。 将 文献 [16] 中 的 加 权 方 法 W 与 CWM 加 权 进 行 对 比 实 


验 , 图 3 79:8 ER SE I ELTE [0.2.1.0] AR, 两 种 加 权 策 略 所 


检测 到 的 已 知 蛋 白质 复合 物 的 比例 。 


从 图 3 中 可 以 看 出 本 文 加 权 策 略 的 检测 结果 明显 优 于 文 


献 [I16] 的 加 权 策 略 ， 尤 其 在 重 登 率 阔 值 为 


0.3 时 ， 


FGCDACC-DPC 算法 使 用 cwM 加 权 识 别 的 蛋白 质 复 合 物 比 


例 要 比 使 用 丈 加 权 识 别 的 比例 高 20.8%。 由 于 文献 [16] 中 Ww 


加 权 只 整合 了 边 聚 集 系 数 和 持续 共 表达 的 长 度 ， 因 此 只 能 反 
W PPI 网 络 的 拓扑 特性 和 时 序 性 ,考虑 的 比较 单一 。 而 CWM 


的 动态 PPI 网 络 蛋白 质 复合 物 的 预测 效果 较 好 。 
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图 3 不 同 加 权 策 略 挖掘 的 复合 物 对 比 结果 


加 权 综 合 考虑 了 和 蛋白质 相互 作用 网 络 的 拓扑 特性 和 生物 特 
性 ， 并 且 利 用 GO 注释 信息 和 基因 表达 数据 为 网 络 加 权 ， 有 
效 减 少 假 明 性 和 假 阳 性 带 来 的 负面 影响 , 因此 基于 CWM 加 权 


Fig.3 Comparison of complexes mined by different weighting 


strategies 


录用 定稿 胡 健 等 : 基于 蚁 群 聚 类 的 动态 加 权 PPI 网 络 复合 物 挖 气 

为 进一步 检验 综合 性 权 值 的 有 效 性 ， 分 别 使 用 不 同 加 权 ” 别 的 看 白质, 因为 点 边 聚 集 系 数 不 仅 考虑 了 节点 间 边 的 关系 ， 
方法 与 CWM 加 权 进 行 对 比 实验 。 图 4 是 采用 不 同 加 权 方 法 检 ，” ”还 考虑 了 每 个 节点 的 重要 性 ， 对 和 蛋白质 网 络 的 拓扑 性 考虑 的 
测 到 的 蛋白 质 复合 物 与 标准 数据 库 的 对 比 结果 。 从 图 4 中 可 比较 全 面 ， 但 忽略 了 和 蛋白质 之 间 的 生物 特性 ， 综合 性 权 值 度 
以 看 到 ,使 用 Ecc 加 权 的 方法 未 识别 YHR081W 和 YYOL142W  ” 量 既 考虑 网 络 拓扑 性 ， 同 时 又 结合 了 GO 注释 信息 和 基因 表 
两 个 蛋白 质 , 而 且 YDLIIIC 节点 错误 挖掘 了 一 个 YOR326W — 达 数 据 ， 对 和 蛋白质 网 络 进行 了 全 面 的 分 析 ， 能 够 更 加 贴近 真 
节点 ， 是 因为 边 聚 集 系数 只 考虑 节点 间 边 的 紧密 度 ， 对 网 络 。 实 网 络 ， 因 此 最 终 的 聚 类 效果 较 好 。 
拓扑 性 分 析 地 比较 单一 ;使 用 CE 加 权 的 方法 只 有 一 个 未 识 

(A) 标 准 复合 物 (b) E 加 权 (c) CE.. 加 权 (d) CWM 加 权 
图 4 不 同 加 权 方 法 识别 nuclear exosome complex 复合 物 
Fig.4 Nuclear exosome complex detected by different weighting methods 

3.5 8.5 权 值 更 新 策略 有 效 性 分 析 o — 

为 检验 权 值 更 新 策略 对 当前 时 刻 复 合 物 的 聚 类 效果 ， 本 YY — 
文 分 别 基于 使 用 权 值 更 新 策略 的 FGCDACC-DPC 算法 和 基 "i la . 
于 未 使 用 权 值 更 新 策略 的 FGCDACC-DPC 算法 ， 在 12 个 子 pe Nae e 
网 中 进行 复合 物 检测 ， 将 每 个 时 刻下 两 种 情况 的 检测 结果 进 M| n plc 
行 对 比分 析 。 " j an 

图 5 为 两 种 情况 的 -measure 对 比 结果 。 从 图 5 中 可 以 a 
看 出 ， 有 2 个 时 刻 两 种 情况 的 -measure 值 持平 ， 有 8 个 时 上 
刻 使 用 权 值 更 新 策略 的 FGCDACC-DPC 算法 超过 了 未 使 用 i 
权 值 更 新 策略 的 算法 ， 尤 其 是 在 9. 10. 11 和 12 时 刻 图 6 fgcdaco-dpe 算法 各 时 刻 的 度量 值 
F — measure 值 有 明显 提高 。 假 设 前 一 时 刻 的 聚 类 比较 准确 ， Fig.6 Evaluation value of FGCDACO-DPC algorithm in different 
那么 当前 时 刻 根据 前 一 时 刻 的 聚 类 结果 进行 权 值 更 新 ， 可 以 periods of time 
保证 当前 时 刻 的 相互 作用 更 真实 可 靠 ， 进 而 提高 聚 类 效果 。 从 图 中 可 以 看 出 ，FGCDACC-DPC 算法 具有 最 高 的 
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5 不 同时 刻下 F- measure 度量 比较 


Fig.5 The value of f-measure with different strategies in different 


periods of time 


KI 


6 显示 FGCDACC-DPC 算法 在 12 个 


瞬 态 网 络 中 的 


precision, recall 和 F — measure 值 。 不 难看 出 随 着 精确 


度 的 上 升 召 


在 第 6 个 时 刻 ， 


本 率 逐 渐 下 降 。 


AF 
3.6 算法 有 效 性 比较 
3.6.1 性 能 分 析 

为 验证 FGCDACC-DPC 算法 在 
分 别 选 用 传统 聚 类 算法 MCODEP!, 
MCL‘, COACH” D X 3k 
ACC-FDMUO 以 及 ACC-DPC08I 等 与 
行 对 比 实验 ， 
区 | 


精确 度 值 和 召 匠 
达 最 高 点 和 最 低 点 ， 在 第 7 个 时 刻 之 后 ， 精 确 
度量 值 逐 渐 趋 于 平缓 ， 精 度 在 11、12 时 刻 有 所 上 升 。 


于 蚁 群 聚 类 的 算法 JSACOU, 


分 析 各 算法 的 精度 、 召 回 
到 7 为 各 算法 在 三 种 度量 指标 上 的 对 比 结果 。 


率 值 分 别 到 
率 以 


w. uh 


动态 PPI 网 络 的 有 效 性 ， 
RNSCU, JU RRIA 


FGCDACC-DPC 算法 ; 
率 以 及 F — measure 值 


F —measure 值 ， 分 别 比 MCODE, MCL, COACH, RNSC, 
ACC-DPC, JSACO 算法 和 ACC-FMD 提高 了 14439, 


61.0696, 19.2496, 37.5896, 17.4996,42.16196, 25.5296. KE 
加 贴近 真实 的 
Wj; 5j— 
效 提 升 算 
仅 次 于 JSACO 
段 阳性 。 该 算法 在 召 
优 , 分 别 比 MCODE, MCL, COACH, RNSC, 


pin 


要 原因 有 : 一 方 
PPI 网 络 ， 降 低 
方面 对 拾 起 放下 


而 构建 
段 阳性 和 
的 改进 策 


算法 ， 说 明 构建 
率 上 的 表现 较 


态 网 


Lu 


的 动态 加 权 PPI 网 络 更 


段 阴性 对 聚 类 准确 性 的 影 
各 和 权 值 更 新 策略 能 够 有 
法 的 F —measure 。 该 算法 在 精度 上 位 页 第 三 5 


络 包含 较 少 的 


ACC-DPC, JSACO 算法 和 ACC-FMD 提高 了 252295, 


38.025960, 7.0896, 14.0196, 27.1796, 95.758965M 40.157% 。 
虽然 构建 的 动态 网 络 会 缺少 一 定量 的 蛋白 质 ， 这 样 可 能 会 导 
致 召回 率 有 所 下 降 ， 但 加 权 方式 的 有 效 性 使 得 网 络 中 含有 较 
少 的 假 阴性 ， 因 此 召回 率 整体 上 提高 了 。 综 合 衡量 三 个 指标 
值 ， 该 算法 性 能 较 优 。 
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动态 网 络 上 各 算法 聚 类 结果 对 比 
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Fig.7 Comparison results of different algorithms in dynamic PPI 


network 
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为 进一步 评估 FGCDACC-DPC 算法 的 聚 类 性 能 , 分别 从 3.6.2 聚 类 结果 分 析 
各 类 算法 识别 的 复合 物 的 个 数 、 簇 平均 大 小 、 覆 盖 蛋 白质 数 这 一 部 分 主要 分 析 FGCDACC-DPC 算法 的 聚 类 结果 , K 
以 及 运行 时 间 四 方面 进行 分 析 。 从 表 2 中 可 以 看 出 ， 3 为 采用 该 算法 识别 的 其 中 6 个 重 白质 复合 物 。 通 过 分 析 预 
FGCDACC-DPC 算法 识别 复合 物 的 平均 大 小 和 覆盖 蛋白 质 测 复合 物 中 正确 和 错误 的 聚 类 结果 来 评价 该 算法 的 聚 类 记 


数 比 其 他 算法 识别 的 结果 都 要 更 加 接近 标准 类 ; 虽然 识别 的 果 。 从 表 3 可 以 看 出 ， 预 测 复合 物 2、3、5 和 6 与 标准 复合 
复合 物 个 数 为 637， 仅 次 于 MCL 算法 ,但 MCL 算法 覆盖 的 物 为 完美 匹配 , 说 明 采 用 FGCDACC-DPC 算法 检测 的 蛋白 质 
蛋白 质 却 有 4096 个 ， 其 准确 率 比 FGCDACC-DPC 算法 低 。 复合 物 与 真实 蛋白 质 复 合 物 更 加 贴近 ， 更 具 生 物 意义 。 

为 验证 该 算法 的 时 间 效 率 , 将 FGCDACC-DPC 算法 与 各 表 2 各 种 挖掘 蛋白 质 复合 物 算法 的 性 能 比较 
种 基于 蚁 群 聚 类 的 算法 进行 对 比 实验 。 从 表 2 中 可 以 看 出 本 Table 2 Performance comparision of various algorithms for mining 
文 算 法 时 间 性 能 较 优 ， 首 先是 因为 该 算法 是 基于 小 规模 动态 protein complexes 
加 权 PPI 网 络 聚 类 的 ， 克 服 了 蚁 群 算法 应 用 于 大 规模 PPI 网 算法 EHAA TOKI MERAN ”运行 时 间 GS 
络 收敛 速度 慢 的 问题 ， 其 次 改进 的 拾 起 放下 规则 和 权 值 更 新 -AB AN. Wn - 
的 有 效 性 ， 能 够 有 效 减 少 计算 量 和 访问 却 不 拾 起 的 次 数 ， 进 MCL 623 6.57 4096 = 
而 缩短 聚 类 时 间 。 因 此 该 算法 比 ACC-DPC 和 ACC-FMD 算 jene; AE s es 一 
法 的 时 间 效 率 要 高 虽然 FGCDACC-DPC 算法 的 运行 时 间 稍 ACC-DPC 237 7.8 1785 1524 
次 于 JSACO 算法 ,但 该 算法 的 其 他 指标 却 高 于 JSACO 算法 。 poA E NE - Een 
整体 上 看 ，FGCDACC-DPC 算法 具有 良好 的 性 能 。 FGCDACO-DPC 637 4.98 1921 706 


表 3 fgcdacc-dpc 算法 识别 的 6 个 复合 物 的 结果 分 析 
Table3 Analysis of six protein complexes detected by FGCDACC-DPC algorithm 


聚 类 序号 复合 物 名 称 标准 复合 物 正确 聚 类 的 蛋白 质 错误 聚 类 的 蛋白 质 os 
Exocyst complex YJL085W YBR102C YBR102C 
1 YLR166C YGL233W YLR166C YGL233W 0.875 
YERO008C YDR166C YER008C YDR166C 
YIL068C YPR055W YIL068C YPR055W 
2 Cbf1p/Met4p/Me YJR060W YIR017C YJR060W YIR017C 1 
t28p complex YNL103W YNL103W 
3 TRAMP complex YDLI175C YJL050W YDLI75C YJL050W 1 
(Air2p) YOL115W YOLII5W 
histone YGLI94C YIL112W YGLI194C YIL112W 
4 deacetylase YDRI155C YOL068C YDRI55C YOL068C YMRI73C 0.875 
complex YKR029C YBR103W YKR029C YBRI03W 
YCR033W YCR033W 
3 cAMP-dependent YIL033C YJL164C YIL033C YJL164C 1 
protein kinase YPL203W YKL166C YPL203W YKL166C 
6 DNA-directed YOR210W YOL005C YOR210W YOL005C 1 
RNA polymerase YOR151C YIL021W YOR151C YILO21W 
II complex YJL140W YBR154C YJL140W YBR154C 
YDR404C YOR224C YDR404C YOR224C 
YDL140C YPR187W YDL140C YPR187W 
YGL070C YHR143W-A YGL070C YHR143W-A 


为 更 加 直观 地 分 析 聚 类 结果 , 本 文 将 DNA-directed RNA ”针对 基于 拾 起 放下 规则 的 蚁 群 聚 类 算法 中 的 缺陷 ， 本 文 该 如 

人 polymerase II complex 复合 物 的 检测 结果 进行 可 视 化 。 图 可 根据 PPI 网 络 的 拓扑 特性 设计 出 一 种 有 效 的 相似 性 函数 ， 
= 展示 的 是 不 同 算法 检测 该 复合 物 的 预测 结果 ， 其 中 灰色 节点 以 准确 描述 节点 与 复合 核 的 紧密 程度 ， 如 何 根据 蛋白 质 复合 
© 为 聚 类 错误 的 蛋白 质 。 Cao 是 标准 复合 物 ; b) 是 物 的 结构 特征 设计 出 一 种 较 优 的 扩张 方法 , 以 优化 搜索 过 程 、 
FGCDACC-DPC 算法 的 检测 结果 ,正确 检测 该 复合 物 的 全 部 是 高 召回 率 和 聚 类 速度 ， 以 及 如 何 根据 蚁 群 信息 传递 机 制 和 
和 蛋白质; (c) 是 ACC-DPC 算法 的 检测 结果 ， 正 确 检测 到 11 时 序 网 络 特性 提出 一 种 策略 来 传递 最 优 解 信息 ， 以 提高 聚 类 
个 蛋 和 白质， 只 有 蛋白 质 YHR143W-A 未 被 检测 出 来 ， 是 因为 ” 准确 性 。 针 对 以 上 问题 ， 本 文 首先 基于 静态 PPI 网 络 的 拓扑 
该 节点 只 与 艇 内 YIL021W 相连 ， 并 且 与 篮 外 连接 更 加 紧密 ; 特性 ， 结 合 基因 表达 数据 和 GO 注释 信息 ， 构 建 更 加 可 靠 的 
(d) 是 ACC-FMD 算法 的 检测 结果 ， 检 测 到 10 个 蛋白 质 ， 动态 加 权 PPI 网 络 ， 并 提出 一 种 基于 蚁 群 聚 类 的 动态 PPI 网 
错误 检测 两 个 非 复 合 物 内 蛋白 质 ， 其 中 蛋白 质 YPL203W fí — 络 和 蛋白 质 复 合 物 挖 气 算法 FGCDACC-DPC. 与 其 他 蚁 群 聚 类 
XX YHR143W-A， 只 因为 YPL203W 与 簇 内 所 有 蛋白质 算法 相 比 ， 该 算法 充分 利用 和 蛋白质 的 关键 性 和 复合 物 的 形成 
都 连接 紧密 。 从 图 8 (o) M (d 的 聚 类 结果 中 可 以 看 出 ， 机 制 来 构建 更 加 贴近 真实 复合 物 核 心 的 复合 核 ， 以 作为 扩张 
在 使 用 同 种 算法 的 情况 下 基于 动态 网 络 挖掘 的 复合 物 更 加 准 的 基础 ， 然 后 将 模糊 粒度 相似 度 和 紧密 度 的 概念 应 用 于 聚 类 
Wü: (e) 和 CD X MCL 和 MCODE 算法 的 检测 果 ， 这 两 中 ， 并 对 拾 起 放下 规则 进行 改进 ， 以 降低 算法 随机 性 和 计算 
种 算法 都 只 正确 检测 到 9 个 蛋白 质 ， 其 中 MCL 算法 检测 结 复杂 度 以 及 有 效 提高 聚 类 速度 和 召回 率 ， 并 且 通 过 不 断 更 新 
果 中 的 蛋白 质 YPR110C 错误 蔡 换 YPR187W，MCODE 算法 局 部 和 全 局 权 值 以 传递 最 优 解 信息 ， 大 大 提升 算法 准确 率 。 

错误 检测 两 个 蛋白 质 。 综 述 所 述 ， 基 于 动态 加 权 PPI 的 ” 实验 结果 验证 了 动态 加 权 PPI 网 络 的 有 效 性 。 结 果 也 表明 ， 


oo 


FGCDACC-DPC 算法 的 检测 结果 更 加 接近 标准 复合 物 ， 进 相 比 于 MCODE, RNSC, MCL, COACH, JSACO, ACC-FDM 
步 说 明 该 算法 的 有 效 性 。 以 及 ACC-DPC, FGCDACC-DPC 算法 具有 较 强 的 蛋白 质 复 
4 ”结束 语 合 物 检 测 能 力 ， 控 掘 的 蛋白 质 复 合 物 既 满足 拓扑 结构 上 的 笛 

g 密 性 ， 又 更 加 贴近 生物 意义 上 的 复合 物 ， 并 且 在 三 种 评价 指 


本 文 面 临 的 首要 问题 是 如 何 有 效 减 少 PPI 网 络 中 的 假 阳 标 上 都 取得 较 好 的 结果 。 
性 和 假 阴 性 数据 ， 进 而 构建 真实 可 靠 的 动态 加 权 网 络 。 并 且 
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虽然 该 算法 在 准确 率 和 召回 率 上 有 所 提高 ， 收 敛 速度 过 
慢 的 问题 得 到 些许 改善 ， 但 时 间 性 能 未 得 到 显著 提升 ， 同 时 
于 连续 时 刻 的 复合 物 之 间 有 具 定 的 相关 性 ， 识 别 的 蛋 
质 复合 物 之 间 重 灵 过 多 ， 这 些 问 题 还 有 待 进一步 研究 。 目 前 
本 文 主要 基于 酵母 PPI 网 络 ， 未 来 的 研究 重心 应 放 在 人 类 有 蛋 
白质 和 致 病 基 因 预 测 上 ， 此 外 可 基于 检测 的 蛋白 质 复合 物 ， 
根据 复合 物 中 大 部 分 功能 已 知 的 蛋白 质 来 预测 那些 功能 未 知 
的 蛋白 质 ， 以 上 这 些 将 是 下 一 步 的 研究 工作 。 
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